ডেটা Normalization এবং Standardization

Machine Learning - কেরাস ডিপ লার্নিং (Deep Learning with Keras) - Data Preprocessing এবং Augmentation
253

ডেটা Normalization এবং Standardization হল দুটি গুরুত্বপূর্ণ প্রক্রিয়া যা মেশিন লার্নিং মডেল ট্রেনিংয়ের সময় ডেটার স্কেল সমন্বয় করতে ব্যবহৃত হয়। এই প্রক্রিয়া দুটি ডেটাকে একটি সাধারণ স্কেলে নিয়ে আসে, যার ফলে মডেল প্রশিক্ষণ দ্রুত এবং আরো কার্যকরী হয়।

১. Normalization (Normalization)

Normalization হল একটি প্রক্রিয়া যার মাধ্যমে ডেটার স্কেল কমপক্ষে [0, 1] বা [-1, 1] এর মধ্যে নিয়ে আসা হয়। এটি সাধারনত min-max scaling নামে পরিচিত, যেখানে ডেটার সর্বনিম্ন এবং সর্বোচ্চ মানকে ব্যবহার করে একটি নির্দিষ্ট রেঞ্জে ডেটাকে রূপান্তরিত করা হয়।

Normalization এর পদ্ধতি:

নির্দিষ্ট বৈশিষ্ট্যের জন্য, Normalization এর মাধ্যমে ডেটার মানকে নতুন স্কেলে রূপান্তরিত করা হয় নিম্নলিখিত সূত্র ব্যবহার করে:

Xnorm=XXminXmaxXminX_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}

এখানে,

  • XX হল মূল মান,
  • XminX_{\text{min}} হল ডেটাসেটের সর্বনিম্ন মান,
  • XmaxX_{\text{max}} হল ডেটাসেটের সর্বোচ্চ মান।
Normalization এর সুবিধা:
  • এটি ডেটার মানকে একটি নির্দিষ্ট স্কেলে নিয়ে আসে, যা মডেল প্রশিক্ষণ করতে সহায়ক।
  • সাধারনত ক্লাস্টারিং বা k-Nearest Neighbors (k-NN) মডেলের জন্য গুরুত্বপূর্ণ, কারণ এটি দূরত্বের উপর ভিত্তি করে কাজ করে এবং স্কেল অমিল হলে ফলাফল ভুল হতে পারে।
উদাহরণ:

ধরা যাক, একটি বৈশিষ্ট্য (ফিচার) হলো 'বয়স', যার মান ১৫ থেকে ১০০ এর মধ্যে। যদি আমরা min-max normalization প্রয়োগ করি, তবে বয়সের মান [0, 1] এর মধ্যে নেমে আসবে।


২. Standardization (Standardization)

Standardization, যাকে Z-score normalization বা zero mean normalization বলা হয়, হল একটি প্রক্রিয়া যার মাধ্যমে ডেটার প্রতিটি ফিচারের মানকে mean = 0 এবং standard deviation = 1 তে রূপান্তরিত করা হয়।

Standardization এর পদ্ধতি:

ডেটার মানকে স্ট্যান্ডার্ডাইজ করতে নিচের সূত্র ব্যবহার করা হয়:

Xstd=XμσX_{\text{std}} = \frac{X - \mu}{\sigma}

এখানে,

  • XX হল মূল মান,
  • μ\mu হল ডেটাসেটের গড় মান (mean),
  • σ\sigma হল ডেটাসেটের স্ট্যান্ডার্ড ডেভিয়েশন (standard deviation)।
Standardization এর সুবিধা:
  • ডেটার গড় এবং মান বিচ্যুতি সম্পর্কে তথ্য সংরক্ষণ হয়, যা মডেলকে আরো কার্যকরী এবং নির্ভুল করতে সহায়ক।
  • Linear Regression, Logistic Regression, Support Vector Machines (SVM), Principal Component Analysis (PCA) এর মতো মডেলের জন্য উপযোগী, যেগুলোতে ডেটার স্কেল খুব গুরুত্বপূর্ণ।
উদাহরণ:

ধরা যাক, কোনো বৈশিষ্ট্যের মানের গড় (mean) হল ৫০ এবং স্ট্যান্ডার্ড ডেভিয়েশন (standard deviation) হল ১০। যদি একটি মান হয় ৭০, তাহলে স্ট্যান্ডারাইজেশন করলে নতুন মান হবে:

Xstd=705010=2X_{\text{std}} = \frac{70 - 50}{10} = 2

এখানে, স্ট্যান্ডার্ডাইজড মান ২ হবে, যা গড় থেকে ২ স্ট্যান্ডার্ড ডেভিয়েশন বেশি।


সারাংশ

  • Normalization: ডেটাকে একটি নির্দিষ্ট স্কেলে (সাধারণত [0, 1] বা [-1, 1]) রূপান্তরিত করা হয়। এটি যখন প্রয়োজন হয়, যেমন ক্লাস্টারিং বা k-NN মডেলগুলোর জন্য।
  • Standardization: ডেটার গড় মান ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১ এ রূপান্তরিত করা হয়। এটি তখন ব্যবহৃত হয় যখন ডেটার গড় এবং বিচ্যুতি গুরুত্বপূর্ণ, যেমন লিনিয়ার মডেল এবং PCA

Normalization সাধারণত সিম্পল প্রক্রিয়া এবং যখন বৈশিষ্ট্যগুলির মধ্যে বড় পার্থক্য না থাকে, তখন এটি ভালোভাবে কাজ করে। তবে Standardization অধিকাংশ সময় ভালো ফলাফল দেয় বিশেষত যখন ডেটার বৈশিষ্ট্যগুলির মধ্যে বড় পার্থক্য থাকে।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...